文本到图像生成模型最近引起了极大的兴趣,从而从文本提示中综合了高质量的图像。但是,这些模型通常缺乏从给定的参考图像中产生特定主题或在不同条件下合成新型演绎的能力。诸如Dreambooth和主题驱动的文本对图像(SUTI)之类的方法在这一领域取得了重大进展。然而,两种方法主要侧重于增强与参考图像的相似性,并需要昂贵的设置,通常忽略了有效训练的需求,并避免过度适合参考图像。在这项工作中,我们介绍了λ-谐波奖励功能,该功能提供了可靠的奖励信号,并使得可以尽早停止以进行更快的训练和有效的正则化。通过结合Bradley-Terry偏好模型,λ-谐波奖励功能还为受试者驱动的生成任务提供了偏好标签。我们提出了奖励偏好优化(RPO),该优化提供了更简单的设置(Dreambooth使用的负面样本的3%)和更少的渐变步骤进行微调。与大多数现有方法不同,我们的方法不需要训练文本编码器或优化文本嵌入式,并仅通过微调U-NET组件来实现文本图像对齐。从经验上,λ-谐波被证明是在主题驱动的生成任务中选择模型选择的可靠方法。基于首选项标签和λ-谐波奖励功能的早期停止验证,我们的算法在Dreambench上获得了最先进的剪辑剪辑得分为0.833,剪辑-T得分为0.314。我们的pytorch实现可在https://github.com/andrew-miao/rpo上获得。
主要关键词